其他
EB 级存储规模 HDFS 在字节的探索与实践
导读 本次分享的主题为 EB 级存储规模 HDFS 在字节的探索与实践。
主要介绍:1. 字节 HDFS 新特征
2. 多机房架构挑战
3. 分级存储实践
4. 数据防误删实践
5. 问答环节
分享嘉宾|田勇 字节跳动 HDFS产品技术负责人
编辑整理|刘鹏鹏
内容校对|李瑶
出品社区|DataFun
1. 字节 HDFS 简介
2. 字节 HDFS 架构
多机房架构挑战
机房级别的容灾,因为多区域机房的基础设施的异构,导致整个稳定性的维护复杂度非常高,所以我们需要一个机房级别的容灾机制来提高稳定性。 访问性能,在大数据的场景下,业务经常有跨机房的多机房联合查询的诉求,所以数据同机房部署的诉求也非常强烈。 扩展性,因为业务的发展非常快,所以整个系统架构需要支持非常灵活便捷的容量和性能扩展。 资源管理,受供应链以及机房的机架位数量限制等一些客观因素的影响,我们需要支持多区域多机房的资源交付能力。
作业管理平台,主要包括一站式的大数据研发平台(Dorado)、流批一体的联邦分析平台(TQS)、机器学习中台(Reckon)等服务。 计算框架层,Spark、Flink 等。 计算存储调度层,ResLack、Data Management 服务。 由 Yarn 和 HDFS 组成的计算和存储资源。
分级存储实践
接入层:支持 C++、Java 的客户端,兼容社区的多副本的读 SDK,使用方式屏蔽了数据是采用多副本存储还是 EC 存储。 存储层:主要包括 Original Cluster 以及 Bytecool Cluster 两个集群,它们技术上其实是同一套的。Original Cluster 主要承接在线的数据写入,Bytecool Cluster 主要承接离线的导入。 工具服务:一些旁路子系统如数据转 EC 的评分系统,提供数据修复、数据导入以及数据 GC 等一些功能。
数据防误删实践
问答环节
分享嘉宾
INTRODUCTION
田勇
字节跳动
HDFS产品技术负责人
字节跳动 HDFS 产品技术负责人,参与过文件、对象、NoSQL 等多个分布式产品研发,在分布式存储领域拥有 10+ 技术经验。之前在百度负责 Mola/Table 等 NoSQL 产品的研发。当前主要关注字节 HDFS 产品的技术架构演进、成本优化以及数十 EB 的数据治理等方向的工作。
往期推荐
点个在看你最好看